大模型优秀大脑齐聚硬核开源聚会,SGLang社区举办国内首次Meetup
向读者们简单介绍下 SGLang。它起源于 RadixAttention,是由非营利组织LMSYS孵化的开源高性能的大语言模型和视觉语言模型推理引擎。它在各种环境中提供低延迟和高吞吐量的推理,从单个 GPU 到大型分布式集群。
向读者们简单介绍下 SGLang。它起源于 RadixAttention,是由非营利组织LMSYS孵化的开源高性能的大语言模型和视觉语言模型推理引擎。它在各种环境中提供低延迟和高吞吐量的推理,从单个 GPU 到大型分布式集群。
别觉得这是小打小闹,懂行的都知道,现在大语言模型推理最头疼的就是“不确定性”,明明输入一模一样的提示,输出却可能差老远。
大语言模型(LLM)的训练过程因巨大的计算需求和突破性的成果而备受关注,然而决定这些模型在现实世界中实用性和广泛采用的关键,却是在推理(Inference)阶段的效率、成本和延迟。推理的定义是,一个经过训练的 AI 模型将其学到的知识应用于全新的、未见过的数据
LongCat-Flash——美团 LongCat 团队开源的创新性混合专家模型(Mixture-of-Experts, MoE)现已在 Hugging Face 平台开源,我们总结了 LongCat-Flash 的一些特性:
作为开源社区近年来备受瞩目的推理引擎,SGLang自发布以来持续迭代优化。截至 2025 年 6 月,其在 GitHub 上已收获近 15K Stars,月均下载量突破 10 万次。凭借出色的性能表现和设计,SGLang 已被多个行业巨头采纳:包括 xAI(用